有點可怕,如果有一天,人工智能也學習到了唇讀技巧的話,是不是以后我們說話都要小心翼翼了,萬一旁邊有設(shè)備在對著我們的嘴。
來自于牛津大學、谷歌等相關(guān)機構(gòu)的科學家最近測試了一種算法,而這個算法現(xiàn)在已經(jīng)擊敗了專業(yè)的人類唇讀者。很快,或許監(jiān)控錄像不僅可以顯示你的行為,還可以顯示你說話的內(nèi)容。
研究人員使用了谷歌的深度思維神經(jīng)網(wǎng)絡(luò),并使用了數(shù)千小時的 BBC 電視視頻來訓練它。這些視頻顯示了不同的人在各種各樣的姿勢、活動和燈光下所講的話。
“唇讀”是人工智能研究的一個活躍領(lǐng)域,而他們并不是第一個進行這樣的研究的團隊。但是,該團隊通過使用數(shù)千小時的視頻,讓他們的算法取得了最好的進展。
他們的“觀看、聽、拼寫”神經(jīng)網(wǎng)絡(luò)學會了將視頻里嘴巴的動作轉(zhuǎn)錄成字符,為此他們使用了超過 100,000 個視頻。而通過把嘴的動作轉(zhuǎn)換成單個的字符,最后神經(jīng)網(wǎng)絡(luò)將會拼出單詞。
在訓練人工智能的過程中,團隊的一個創(chuàng)新就是從單個單詞開始,然后逐漸增加樣本的長度以達到完整的句子。這加快了對人工智能的培訓速度,同時也極大地提高了測試的性能。
他們發(fā)現(xiàn),專業(yè)的唇讀者能夠正確解讀不到四分之一的口語。但是該團隊的模型能夠辨認出一半的口語詞匯,這個成績比專業(yè)的唇語讀者要好的多。
在許多實際應(yīng)用中都可以用到機器唇讀,比如在嘈雜環(huán)境中進行轉(zhuǎn)錄、配音或轉(zhuǎn)錄無聲電影,提高自動語音識別能力等等。讓我們想象一下吧。隨著聊天機器人發(fā)明了自己的語言,人工智能在某一天超越了人類智能,或許屆時在人類與人工智能大戰(zhàn)中,我們說句話都要小心翼翼了,因為或許有機器在盯著我們的嘴巴!



